Introduzione

Nella presente trattazione è stata affrontata l’analisi dei risultati delle elezioni politiche italiane del 2018.

Sistema di voto, suddivisione geografica e quadro politico

Domenica 4 marzo 2018 si sono svolte le elezioni per il rinnovo dei due rami del Parlamento Italiano: la Camera dei Deputati e il Senato. Si è votato per eleggere i 630 deputati e i 315 senatori. La legge elettorale adottata è stata la Legge Rosato, comunemente nota come Rosatellum. La legge è stata applicata per i due rami con la medesima formula elettorale, salvo qualche piccola differenza per quanto riguarda le soglie di sbarramento.

Il Rosatellum è una legge elettorale mista, cioè prevede che una parte dei seggi siano assegnati con un sistema proporzionale e una parte con un sistema maggioritario, come mostrato in figura.

Per applicare questa legge elettorale, il territorio italiano è stato suddiviso in circoscrizioni (corrispondenti a regioni amministrative o, nel caso di regioni particolarmente grandi, parte di esse), a loro volta divise in collegi plurinominali, a loro volta divisi in collegi uninominali. La partizione del territorio per l’elezione della Camera dei Deputati non corrisponde alla partizione per l’elezione del Senato.

In questa trattazione vengono analizzati solo i risultati relativi all’elezione della Camera dei Deputati, in quanto, anche per merito dell’adozione dello stesso sistema di voto per i due rami, non vi sono sostanziali differenze nei risultati. Si noti che l’unica differenza per quanto riguarda le basi elettorali dei due rami è che per la Camera si acquisisce il diritto di voto al compimento dei 18 anni, mentre per il Senato si acquisisce al compimento dei 25 anni, ma, anche per ragioni demografiche, la fascia d’età 18-24 è poco rilevante per l’esito elettorale. Inoltre in questa trattazione sono stati trascurati i voti della Valle d’Aosta che, secondo quanto previsto dal Rosatellum, non è entrata a far parte del computo per i seggi proporzionali e ha eletto un solo deputato e un solo senatore con un sistema puramente maggioritario.

Per quanto riguarda la Camera, il territorio italiano è stato diviso in:

  • 28 circoscrizioni (inclusa la Valle d’Aosta);
  • 63 collegi plurinominali (esclusa la Valle d’Aosta);
  • 232 collegi uninominali (inclusa la Valle d’Aosta).

Il Rosatellum prevede la possibilità per le liste di costituire delle coalizioni per l’elezione della componente maggioritaria.

Di seguito sono elencate le principali liste raggruppate per relative coalizioni:

Coalizione Lista
Coalizione di centrodestra Forza Italia
Lega
Fratelli d’Italia
Noi con l’Italia - UDC
Movimento 5 Stelle Movimento 5 Stelle
Coalizione di centrosinistra Partito democratico
+Europa
Civica popolare
Italia Europa insieme
SVP - PATT (solo in Trentino - Alto Adige)
Liberi e Uguali Liberi e Uguali

Risultato a livello nazionale

Risultati nella Camera dei Deputati a livello nazionale (esclusa Valle d’Aosta)
lista coalizione voti_lista perc_lista voti_coalizione perc_coalizione
LEGA 5698687 17.4 %
FI 4596956 14.0 %
FDI 1429550 4.4 %
UDC 427152 1.3 %
CDX 12152345 37.0 %
M5S 10732066 32.7 %
M5S 10732066 32.7 %
PD 6161896 18.8 %
+E 841468 2.6 %
IEI 190601 0.6 %
CP 178107 0.5 %
SVP 134651 0.4 %
CSX 7506723 22.9 %
LEU 1114799 3.4 %
LEU 1114799 3.4 %
Altri 1335772 4.1 %

Quesiti affrontati nell’analisi

Nella presente analisi si è cercato di rispondere alle seguenti domande:

  1. Come si distribuiscono i voti dei diversi partiti?
  2. C’è una netta divisione tra il voto nelle regioni del Nord e nelle regioni del Sud?
  3. Ci sono altre caratteristiche geografiche che impattano sul voto?
  4. Quali sono le caratteristiche socio-economiche dell’elettorato dei diversi partiti?
  5. Le zone geografiche sono solo un proxy per le caratteristiche socio-economiche degli elettori o da sole spiegano il voto degli elettori?

Per quanto riguarda i quesiti 2 e 3, diversi commentatori politici hanno fatto notare come vi sia stata una netta spaccatura tra i voti nelle regioni del Nord che hanno visto la Lega come protagonista e nelle regioni del Sud, dominate dal Movimento 5 Stelle, mentre Partito Democratico è riuscito ad emergere solo nelle storiche regioni rosse. Inoltre si è anche fatto notare come nelle città del Nord (in particolare Milano e Torino) vi siano rilevanti differenze tra i centri città, dove ha vinto il Partito Democratico, le periferie, dove ha vinto il Movimento 5 Stelle e le provincie, dove ha vinto la Lega. Particolarmente interessante su questo tema è l’analisi di Filippo Mastroianni su Il Sole 24 Ore.

Per quanto riguarda i punti 4 e 5 si è notato come tra le diverse zone d’Italia vi sono anche forti differenze socio-economiche che possono spiegare le differenze nel voto. In merito a questo aspetto Giuseppe Sollazzo, data scientist e attivista open data londinese, ha affermato nella sua analisi che “prima di tutto, la geografia è molto probabilmente, nel caso Italiano, un proxy per altri parametri (occupazione, PIL locale, benessere generale); e secondo, anche considerando la possibilità che sia un proxy, non è così forte come proxy”.

La tesi che vi siano nette distinzioni socio-economiche tra gli elettori dei diversi partiti è confermata anche dall’indagine statistica effettuata da Tecnè per Tgcom24. Da questa analisi si evince per esempio che:

  • per quanto riguarda l’età, gli elettori giovani hanno una maggiore tendenza rispetto agli anziani a votare per il Movimento 5 stelle, mentre gli anziani hanno una maggiore tendenza rispetto ai giovani a votare per il Partito Democratico e Forza Italia;
  • per quanto riguarda il livello di istruzione, gli elettori con un basso titolo di studio hanno una maggiore tendenza a votare per la Lega e Forza Italia rispetto agli elettori con un più alto titolo di studio.
drawing drawing

Perché questi quesiti sono interessanti

Questi quesiti sono interessanti innanzitutto perché permettono di indagare su un fenomeno sociale su base nazionale e permettono di capire quali sono i temi e gli ideali politici che più stanno vicini agli italiani. Questo può essere utile per le amministrazioni locali e nazionali per andare in contro in modo più mirato alle esigenze dei cittadini.

In secondo luogo un’analisi di questo tipo può permettere ai partiti politici di capire meglio quali sono stati i punti di forza e i punti deboli della loro comunicazione.

Solitamente per rispondere a domande di questo tipo si effettuano indagini statistiche come quella di Tecnè sopracitata. Queste rispetto all’analisi del voto hanno il vantaggio di raccogliere informazioni a livello di singolo individuo e non solo a livello di aggregati come i comuni o i collegi uninominali, quindi riescono a essere più precise. Di contro, le indagini politiche presentano diversi problemi e criticità:

  1. Il costo: indagini dettagliate richiedono campioni molto grandi e spesso è particolarmente difficile e costoso contattare particolari fasce della popolazione. Per esempio nell’indagine di Tecnè sopracitata sono stati contattati 89.912 individui con metodi di rilevazione telefonici (CATI), via web (CAWI) e di persona (CAPI).
  2. Il rischio di non rappresentatività del campione: nelle indagini statistiche spesso i campioni non sono rappresentativi poiché alcune fasce della popolazione sono più facili da contattare e rispondono più facilmente, mentre altre lo sono molto meno.
  3. Le non risposte e gli indecisi: un gran numero di contattati nelle indagini statistiche si rifiuta di rispondere alle domande o si dichiara indeciso. Per esempio nell’indagine di Tecnè sopracitata i rispondenti sono solo 30.023 (il 36.3% dei contattati).
  4. Le correzioni non adeguate: per far fronte ai problemi descritti nei punti 2 e 3 le aziende non pubblicano i dati come vengono rilevati, ma applicano delle correzioni per neutralizzare il problema della distorsione del campione.

Proprio a causa di queste criticità i dati rilevati dalle indagini politiche a volte si rivelano molto lontani dal dato reale. È il caso per esempio dei sondaggi preelettorali.

Nella tabella e nel grafico seguente è riportato il confronto tra il dato previsto come media degli ultimi sondaggi pubblicati il 16 febbraio 2018 prima del silenzio elettorale e il dato realmente registrato alle elezioni. Nella pagina di Wikipedia dedicata ai sondaggi sulle elezioni politiche italiane del 2018 sono disponibili i dati di tutti i sondaggi.

Percentuali reali e percentuali stimate
lista previsione reale
M5S 28.0 % 32.7 %
PD 22.8 % 18.8 %
LEGA 13.4 % 17.4 %
FI 16.4 % 14.0 %
FDI 4.6 % 4.4 %
LEU 5.7 % 3.4 %

Oltre alla consueto fenomeno di sovrastima del centrosinistra e sottostima del centrodestra e al più recente fenomeno di sottostima del Movimento 5 Stelle già osservato alle elezioni politiche del 2013, è curioso che, per la prima volta dalla sua discesa in campo, i voti di Silvio Berlusconi sono stati sovrastimati nei sondaggi preelettorali. Questo può essere spiegato dal fatto che da buona parta dell’elettorato Berlusconi sia visto come parte dell’establishment allo stesso modo del Partito Democratico e dalla crescita di popolarità di Matteo Salvini che ha fatto confluire un’importante fetta dei voti di centrodestra nella Lega.

Va precisato che, nonostante le criticità delle indagini politiche, un’analisi dei risultati di voto non può sostituirle proprio perché, nonostante non soffra di distorsione, è limitata all’osservazione di aggregati e non di singoli individui, oltre all’evidente problema che le elezioni politiche avvengono ogni 5 anni, mentre le indagini politiche vengono effettuate costantemente.

Le analisi del voto possono però essere utilizzate come uno strumento aggiuntivo che permetta di migliorare le indagini fornendo una base per ottenere nuovi fattori di stratificazione della popolazione per le future indagini.

Dati e metodi

Nella presente trattazione sono stati analizzati per l’elezione della Camera dei Deputati i dati relativi a:

  • Affluenza;
  • Voti ai diversi partiti;
  • Caratteristiche socio-economiche delle diverse zone geografiche.

Fonti

I dati dell’affluenza e i risultati dei partiti disaggregati per circoscrizioni, collegi plurinominali e collegi uninominali sono pubblici sul sito del Dipartimento per gli Affari Interni e Territoriali del Governo Italiano.

Gli shapefile utilizzati per disegnare le mappe e i dataset con i dati socioeconomici della popolazione italiana sono pubblici sul sito dell’ISTAT:

  • in questa pagina ci sono i confini amministrativi di regioni, province e comuni aggiornati all’1 gennaio 2018;
  • in questa pagina ci sono i confini di circoscrizioni, collegi plurinominali e collegi uninominali e gli indicatori socio-economici dei collegi elettorali delle elezioni del 4 marzo 2018.

I dati in questione però presentano alcuni problemi:

  1. I dati del Ministero dell’Interno sono organizzati in file csv divisi per entità amministrative. Per analizzarli bisognerebbe scaricare due file (uno per l’affluenza e uno per i risultati) per ciascuna delle 28 circoscrizioni, due per ciascuno dei 63 collegi plurinominali, due per ciascuno dei 232 collegi uninominali;
  2. I dati sono stati pubblicati appena a maggio a causa di problemi con alcuni collegi;
  3. Le entità amministrative sul sito del Ministero sono identificate con determinati codici univoci che non corrispondono ai codici utilizzati dall’ISTAT;
  4. Le mappe con i comuni dell’ISTAT non sono aggiornate con i comuni che sono stati istituiti tra il 2 gennaio e il 4 marzo 2018; per esempio nella mappa del Friuli - Venezia Giulia mancano i comuni di “Fiumicello - Villa Vicentina” e “Treppo Ligosullo” che sono stati istituiti l’1 febbraio 2018.

Per far fronte ai problemi 1, 2 e 3, si è attivato Andrea Borruso, presidente di OnData, “Associazione per la promozione della trasparenza e della cultura dei dati attraverso le competenze digitali e il giornalismo investigativo”, il quale ha scaricato i dati dalla piattaforma interattiva del sito del Ministero dell’Interno con uno script in bash e li ha pubblicati in questa directory di GitHub prima ancora che venissero pubblicati i file csv ufficiali. Si è anche preso la briga di preparare una tabella che mette in relazione i codici identificativi dei comuni, delle province e delle regioni utilizzati dal Ministero dell’Interno con i codici identificativi utilizzati dall’ISTAT. Questa tabella può essere utilizzata come Stele di Rosetta per fare il join tra i dataset delle due fonti.

Questi dati però presentano alcuni problemi:

  1. in alcune tabelle estratte dal sito del Ministero dell’Interno non è presente alcun codice identificativo, quindi prima di incrociarle con quelle del sito dell’ISTAT bisogna effettuare un matching con la Stele di Rosetta utilizzando il nome dell’ente, con i dovuti accorgimenti;
  2. la Stele di Rosetta presenta solo i codici di comuni, province e regioni, ma non i codici dei collegi e delle circoscrizioni, per i quali è necessario fare un matching via nome direttamente con i dati dell’ISTAT, con i dovuti accorgimenti;
  3. essendo stati scaricati subito dopo la pubblicazione da parte del Ministero dell’Interno, sono presenti alcuni dati mancanti, come quello dell’affluenza nella provincia di Prato, che a causa di alcuni problemi nelle sezioni sono stati pubblicati sul sito del Ministero solo in un secondo momento.

Per il problema 3 ho deciso di utilizzare per l’analisi del voto a livello di circoscrizione i dati scaricati a mano in formato csv dal sito del Ministero dell’Interno.

Strumenti utilizzati per l’analisi

Una buona parte del lavoro di analisi dei dati è stato svolto tramite la rappresentazione di mappe e diagrammi di dispersione. Gli strumenti statistici utilizzati per l’analisi tecnica sono stati:

  • la cluster analysis gerarchica per l’individuazione di cluster geografici con caratteristiche di voto simili;
  • la regressione lineare multivariata per l’individuazione delle caratteristiche socio-economiche dell’elettorato dei diversi partiti.

Analisi dei dati

Affluenza

Affluenza a livello aggregato

L’affluenza su base nazionale si è attestata al 72.94%, in calo rispetto al 75.20% delle elezioni politiche del 2013, risultando la più bassa della storia repubblicana (dal 1948). Nel confronto con le ultime elezioni va però tenuto presente che nel 2013 si è votato anche il lunedì, mentre nel 2018 i seggi sono stati aperti solo la domenica.

Guardando i boxplot seguenti si può notare come vi sia stata un’affluenza alle ore 23:00 complessivamente più bassa rispetto a quella delle precedenti elezioni. Si può notare anche una leggera diminuzione della variabilità, sia in termini di deviazione standard, sia in termini di coefficiente di variazione.

Si ricorda che il coefficiente di variazione di una variabile \(X\) è definito come:

\[ CV(X)=\frac{SD(X)}{E(X)} \]

dove \(SD(X)\) è la deviazione standard di \(X\) e \(E(X)\) è la media di \(X\).

Distribuzione dell’affluenza nelle provincie
hour min mean median max sd cv
perc_ore12 11.8 % 19.5 % 19.9 % 24.7 % 2.90 % 0.149
perc_ore19 42.9 % 58.8 % 60.9 % 68.4 % 6.23 % 0.106
perc_ore23 59.1 % 73.0 % 74.7 % 80.4 % 5.52 % 0.076
percprec_ore23 59.7 % 75.1 % 76.8 % 84.3 % 6.16 % 0.082
Distribuzione dell’affluenza nei comuni
hour min mean median max sd cv
perc_ore12 1.4 % 20.2 % 20.3 % 46.3 % 4.51 % 0.223
perc_ore19 14.3 % 60.0 % 61.3 % 86.8 % 7.68 % 0.128
perc_ore23 17.6 % 73.6 % 75.1 % 98.4 % 6.89 % 0.094
percprec_ore23 20.7 % 75.1 % 76.7 % 100.0 % 7.64 % 0.102

Affluenza a livello locale

Le mappe seguenti mostrano l’affluenza nelle diverse zone d’Italia. Dalla mappa con il dettaglio a livello provinciale appare evidente che l’affluenza nelle regioni del Nord sia stata significativamente più alta rispetto all’affluenza nelle regioni del Sud, con picchi positivi nelle provincie di Veneto, Lombardia, Toscana ed Emilia - Romagna e picchi negativi nelle provincie di Sicilia, Calabria e Sardegna. Emerge inoltre che c’è stato un picco di bassa affluenza nella provincia di Bolzano, in Trentino - Alto Adige

La seconda mappa mostra gli stessi dati con un dettaglio a livello comunale. A causa della maggiore variabilità dei dati dovuta comuni (solitamente molto piccoli) che raggiungono livelli superiori al 90% e altri inferiori al 20% risultano meno evidenti le differenze su scala nazionale poiché la maggior parte dei comuni rimane sulla fascia verde. Nella terza mappa è stato ovviato a questo problema schiacciando tutti i comuni con affluenza superiore all’80% sul giallo e tutti i comuni con affluenza inferiore al 60% sul blu. Va notato che la scelta delle soglie introduce un ampio margine di arbitrarietà nel disegnare la mappa. Invece l’accorpamento dei comuni in zone omogenee più estese (come possono essere le provincie o i collegi uninominali) fornisce un effetto smoothing che neutralizza il problema dei picchi nei piccoli comuni.

I diagrammi a dispersione seguenti rappresentano sull’asse delle ascisse l’affluenza alle elezioni del 2013 e sull’asse delle ordinate l’affluenza alle elezioni del 2018. I colori rappresentano le regioni: punti dello stesso colore rappresentano province o comuni appartenenti alla stessa regione. Da questi grafici emerge che la diminuzione dell’affluenza si è riscontrata soprattutto nelle regioni del Nord (dove l’affluenza è alta), mentre è stata meno accentuata in alcune regioni del Sud (dove l’affluenza è bassa), in particolare in Campania, dove si è registrato un aumento che può essere spiegato dall’aumento dei consensi nei confronti del Movimento 5 Stelle grazie alla popolarità del leader napoletano Luigi Di Maio.

Guardando la parte destra del diagramma a dispersione emerge un punto anomalo corrispondente alla provincia di Bolzano, che ha conosciuto un enorme crollo di affluenza passando dall’82% al 69%. Per spiegare questo fenomeno bisogna indagare sulla situazione sociale e politica dell’Alto Adige. I residenti della provincia autonoma di Bolzano sono per il 62.2% germanofoni e la minoranza italofona costituisce solo il 23.3% della popolazione. Il partito che domina la scena politica altoatesina è il Südtiroler Volkspartei (SVP), partito autonomista moderato, che ha governato ininterrottamente la provincia fin dalla sua istituzione nel 1948 e attualmente governa la maggior parte dei comuni della provincia di Bolzano. Il SVP durante la prima repubblica si è presentato alle elezioni politiche al fianco della Democrazia Cristiana, mentre dagli anni ’90 si è schierato con i partiti di centrosinistra, motivo per cui alle elezioni del 4 marzo 2018 ha fatto parte della coalizione del Partito Democratico. A causa di una diminuzione di fiducia nei confronti del Partito Democratico, che ha colpito tutta l’Italia durante il governo Renzi, e della scelta di candidare al collegio uninominale di Bolzano Maria Elena Boschi, si è diffuso un generale malcontento da parte dell’elettorato sudtirolese. Questo malcontento è stato incanalato dai parti della destra indipendentista sudtirolese, come Die Freiheitlichen (i Libertari), i quali, non riconoscendo una valida alternativa nei candidati della coalizione di centrodestra -che ha presentato al collegio uninominale di Bolzano Michaela Biancofiore-, hanno invitato gli elettori all’astensionismo.

Tabelle interattive affluenza

Nelle seguenti tabelle è possibile riordinare i dati per affluenza crescente o decrescente e tramite la barra di ricerca selezionare una regione, una provincia o un comune di interesse.

Analisi del voto

Nei boxplot seguenti è riportata la distribuzione della popolazione alla data del censimento del 2011 nei diversi collegi. Dai boxplot si può notare che la distribuzione della popolazione nelle circoscrizioni ha un’altissima variabilità. Per rendere il più possibile equilibrato il potere degli elettori residenti nelle diverse zone d’Italia, i collegi sono stati divisi in collegi uninominali il più omogenei possibili in termini di popolazione, che a loro volta sono stati accorpati in collegi plurinominali mantenendo una certa omogeneità. Ogni collegio uninominale ha una popolazione di circa 256000 abitanti.

Questo fa sì che nelle aree con una bassa densità di popolazione (come il Friuli - Venezia Giulia, che conta circa 1.2 milioni di abitanti) i collegi uninominali corrispondo all’accorpamento di diversi comuni, mentre nelle aree con alta densità di popolazione (come Milano, che da sola conta circa 1.4 milioni di abitanti e considerando tutta la città metropolitana ne conta più di 3.2 milioni), i comuni stessi sono stati divisi in più collegi subcomunali.

La forte omogeneità dei collegi uninominali in termini di popolazione li rende ottimali per l’analisi dei risultati, poiché si evitano i problemi visti in merito all’affluenza a livello comunale. Di contro bisogna prestare attenzione a non farsi ingannare dalle mappe che vedono i colori dei partiti che hanno vinto nei collegi provinciali occupare un’area della figura molto più grande rispetto ai colori dei partiti che hanno vinto nei collegi subcomunali delle grandi città. Uno stratagemma per ovviare a questo problema è quello di distorcere le figure in modo da rendere le superfici degli enti proporzionali alla popolosità. Ho deciso di evitare questo approccio perché rende poco riconoscibili le figure.

Vincitori

Nelle seguenti mappe sono riportate le liste e le coalizioni vincitrici a livello di circoscrizioni, di collegi plurinominali e di collegi uninominali. Sono state riportate anche le mappe con il dettaglio della Lombardia, del Piemonte e del Lazio per mettere in evidenza i collegi subcomunali. Da queste mappe risulta evidente che ci sia una netta differenza tra Nord, dove prevalgono i voti della Lega, e Sud, dove prevalgono i voti del Movimento 5 Stelle. Guardando con attenzione la mappa dei collegi uninominali si nota anche una netta differenza tra i voti nei collegi subcomunali dei capoluoghi e i voti nelle province. In particolare nelle città del Nord si nota che in pieno centro ha vinto il Partito Democratico, nelle periferie il Movimento 5 Stelle e in provincia la Lega.

Tabelle interattive voti

Concentrazione voti

Le mappe con i risultati elettorali mostrate fino adesso hanno un grosso difetto: mostrano il vincitore, ma non di quanto ha vinto. Per avere una visione più completa del comportamento degli elettori è utile analizzare le seguenti mappe. In queste mappe è visualizzata a livello di collegio uninominale l’intensità di voto di ognuno dei 4 principali partiti tramite l’intensità dei colori.

Nel commentare queste mappe bisogna però prestare attenzione alla scala riportata a fianco. Per esempio confrontando la mappa del Movimento 5 Stelle e della Lega appare evidente che la Lega ha preso più voti al Nord, mentre il Movimento 5 Stelle ha preso più voti al Sud, ma si può anche notare che, mentre la Lega al Sud in certi collegi raggiunge percentuali attorno al 2% o 3%, il Movimento 5 Stelle nei collegi del Nord colorati con un bianco sporco ottiene comunque percentuali che si aggirano attorno al 20%, confermandosi un partito molto più trasversale della Lega.

Confrontando le mappe della Lega e di Forza Italia si può notare come, mentre la Lega, che si è rivelata il partito trainante del centrodestra, ha ottenuto voti principalmente al Nord, a Forza Italia sono rimasti quasi unicamente i collegi del Sud Italia, dove la Lega non è riuscita a emergere. Questo conferma il dato rilevato dall’Istituto Cattaneo, secondo cui buona parte degli elettori di centrodestra del Nord, che alle elezioni del 2013 hanno votato Popolo della Libertà (PDL), abbiano deciso di votare Lega.

In tutte e 4 le mappe si nota una chiazza bianca in corrispondenza della provincia di Bolzano. Questo è dovuto al fatto che in Alto Adige il primo partito è stato SVP che nei collegi di Merano e Bressanone ha superato il 60%.

Analisi a livello locale

Guardando le mappe delle concentrazioni di voto della Lega e del Partito Democratico si notano in Nord Italia una serie di “buchi”, corrispondenti da ovest a est alle città di Torino, Milano, Bergamo, Brescia, Verona, Padova e Venezia. Un dettaglio simile si nota anche a Roma. Dalle mappe con la concentrazione relativa di voto a livello regionale si nota che in tutte le regioni la Lega ha un significativo calo di consensi nelle città. In Lombardia questo calo si traduce in un vero e proprio crollo dal 40% del collegio di Sondrio al 15% dei collegi in centro a Milano, ma anche in Veneto, dove la Lega ha un consenso più uniforme e con la coalizione di centrodestra è riuscita a ottenere tutti i collegi uninominali, si nota un calo nei principali centri urbani. Viceversa il Partito Democratico, che negli ultimi anni ha conosciuto una diminuzione dei consensi nelle provincie, rimane molto forte nelle città arrivando a raggiungere quasi il 30% nei centri urbani. Il Movimento 5 Stelle invece riesce a intercettare i voti nelle periferie dove né la Lega né il Partito Democratico sono sufficientemente forti.

Risulta interessante che anche nel Lazio, regione in cui la Lega non ha una forte base elettorale, quest’ultima riesca a ottenere un discreto successo nelle provincie, mentre rimane un partito marginale in centro a Roma. Invece Fratelli d’Italia, partito molto vicino alla Lega per quanto riguarda le posizioni politiche, mostra un andamento diametralmente opposto riuscendo ad attecchire soprattutto a Roma, dove risulta molto più forte che nella provincia.

Nel Lazio il pattern del centrosinistra risulta ancora più evidente guardando la distribuzione dei voti di +Europa, partito appartenente alla coalizione di centrosinistra che non è riuscito a raggiungere la soglia di sbarramento del 3%, ma la cui leader Emma Bonino ha ottenuto il seggio al Senato tramite l’elezione in un collegio uninominale di Roma.

Guardando le regioni del Sud invece si osserva una diversa distribuzione dei voti del Partito Democratico, dovuta a un Movimento 5 Stelle molto forte tanto in periferia quanto in città, che raggiunge picchi sopra al 60% nei collegi di Napoli. Anche in Campania la Lega, per quanto risulti essere un partito secondario, mostra maggiori consensi in provincia rispetto che in città.

Correlazioni tra i partiti

Dalla matrice di correlazione nei voti dei partiti emerge che la Lega e il Movimento 5 Stelle hanno una correlazione negativa fortissima, dovuta al fatto che la Lega ottiene voti prevalentemente al Nord, mentre il Movimento 5 Stelle al Sud. Come già osservato Forza Italia, vedendosi sottratta l’egemonia sull’elettorato di centrodestra al Nord, ha ottenuto voti prevalentemente al Sud, motivo per cui i voti di Forza Italia risultano correlati positivamente con i voti del Movimento 5 Stelle.

Cluster analysis

Gli aspetti emersi osservando le mappe risultano ancora più evidenti effettuando una cluster analysis.

Tutte le cluster analysis sono state effettuate utilizzando come spazio vettoriale i voti di tutti i partiti e calcolando la distanza tra i cluster con il metodo dell’average linkage. Da un’analisi delle componenti principali risulta che gran parte delle informazioni sono raccolte dalle prime 3 o 4 componenti, di conseguenza tutti i partiti minori assumono un ruolo quasi irrilevante per la costituzione dei cluster. Le variabili più informative per la costituzione dei cluster risultano essere i voti della Lega e i voti del Movimento 5 Stelle.

Per la scelta del numero di cluster si è considerato il rapporto tra la distanza tra gli ultimi due cluster accorpati e la distanza tra i due cluster accorpati al passo precedente. Più è alto questo rapporto e più è rilevante la divisione tra i cluster appena accorpati.

Cluster tra le circoscrizioni

Da tutte le cluster analysis effettuate, si nota il non allineamento della provincia di Bolzano, dove la vittoria del SVP la identifica come un elemento anomalo non appartenente agli altri cluster.

Considerando i rapporti tra le distanze sui cluster accorpati, risulta che la miglior partizione delle circoscrizioni consiste nella separazione tra:

  1. Trentino - Alto Adige;
  2. Circoscrizioni del Centro Nord, dove vi è una forte presenza della Lega e del Partito Democratico;
  3. Circoscrizioni del Sud, dove ha ampiamente vinto il Movimento 5 Stelle.

La seconda miglior partizione vede il cluster del Centro-Nord diviso tra le Circoscrizioni dove ha ampiamente vinto la Lega e le circoscrizioni del Centro assieme a Piemonte 1 e Liguria, dove vi è un’importante presenza del Partito Democratico e una discreta presenza del Movimento 5 Stelle.

Nel seguente diagramma a dispersione ogni bolla rappresenta una circoscrizione, la sua dimensione corrisponde alla popolosità e il colore corrisponde al cluster di appartenenza. Sugli assi sono rappresentati le percentuali ottenute dal Movimento 5 Stelle e dalla Lega, che risultano essere le variabili che meglio spiegano la partizione in cluster. Guardando la dimensione delle bolle risulta evidente che ci siano circoscrizioni poco popolose, come il Molise e circoscrizioni molto popolose come Lombardia 1, dove è situata Milano. Si noti che guardando le mappe delle circoscrizioni il Molise risulta essere più grande della circoscrizione di Lombardia 1 nonostante sia molto meno popoloso.

Cluster tra i collegi plurinominali

Effettuando una cluster analysis tra i collegi plurinominali si osserva sempre una netta distinzione tra collegi del Nord e collegi del Sud, ma aumentando il dettaglio emergono in un cluster a sé stante i collegi di Lombardia 1 - 03, dove è situato Milano, e di Toscana - 03, dove è situata Firenze, città natale di Matteo Renzi.

Cluster tra i collegi uninominali

Aumentando ulteriormente il dettaglio si ottiene una partizione dei collegi uninominali in 7 cluster:

  1. Collegi di Merano e Bressanone, dove il SVP ha ottenuto la maggioranza assoluta;
  2. Collegio di Bolzano, dove SVP ha ottenuto la maggioranza relativa, ma non in modo netto come a Merano e Bressanone;
  3. Collegi del Nord Italia, in cui ha vinto la Lega;
  4. Collegi del Sud Italia, in cui ha vinto ampiamente il Movimento 5 Stelle;
  5. Collegi subcomunali nei principali capoluoghi del centro e del Nord, in cui ha vinto il Partito Democratico e la Lega ha ottenuto pochi consensi;
  6. Collegi dell’Italia Centrale assieme ad alcune città del Nord, come Venezia, Trieste e Gorizia, in cui vi è un generale equilibrio tra Movimento 5 Stelle, Partito Democratico e Lega;
  7. Collegi del Sud dove Forza Italia ha ottenuto dei risultati importanti.

Dal diagramma a dispersione coi collegi uninominali si nota che, salvo casi particolari come i collegi del Trentino - Alto Adige, che essendo una regione a statuto speciale possiede diversi privilegi, la popolosità dei collegi è abbastanza uniforme. Con questa rappresentazione è facile individuare i collegi subcomunali in rosso scuro, che data la loro scarsa estensione si confondono nella mappa.

Analisi delle caratteristiche socio-economiche degli elettori

Sul sito dell’ISTAT, in occasione delle elezioni del 4 Marzo, è stata pubblicata una serie di indicatori di carattere socio-economico a livello di collegi. Si tratta di dati sulla popolazione raccolti durante il censimento del 2011. L’ISTAT monitora con cadenza mensile dati di tipo socio-economico a livello aggregato, ma è stato scelto di pubblicare i dati risalenti al 2011 perché sono gli unici con un dettaglio adeguato e sufficientemente precisi da permettere di effettuare analisi dei risultati elettorali. Per gli indicatori di tipo demografico questo non è un grosso problema, ma può esserlo per dati di tipo socio-economico come il tasso di disoccupazione, che nel 2011 su base nazionale si attestava tra l’8% e il 9%, mentre nel 2017 si attestava attorno all’11% dopo una lunga crescita avvenuta tra il 2008 e il 2014, quando si è toccata quota 13%, e una successiva decrescita.

I dati messi a disposizione dall’ISTAT sono i seguenti:

Area DENOMINAZIONE Indicatore
Territorio DAB Densità abitativa
Demografica IV Indice di vecchiaia
Demografica ST Stranieri per 1.000 residenti
Sociale TSO Tasso specifico di occupazione
Sociale TSOFM Rapporto percentuale tra il tasso specifico di occupazione femminile e maschile
Sociale ICMI % di popolazione 18-24 anni che ha conseguito solo il titolo di studio di scuola media inferiore
Sociale AAST Tasso di analfabetismo
Sociale PDU Indice di possesso di titoli universitari e dei titoli terziari non universitari
Economica ADD Addetti totali per 1.000 abitanti
Economica ADDSP Addetti nei settori pubblici per 1.000 abitanti
Economica OAI % di occupati nel settore dell’industria in senso stretto
Economica OSS % di occupati nel settore dei servizi
Storico-culturale INFR % di popolazione nata al di fuori della regione di residenza
Storico-culturale EDI % Edifici ad uso residenziale costruiti prima del 1945
Sociale IVMS Indice di vulnerabilità materiale e sociale

Analisi degli indicatori

Dai boxplot seguenti si può notare che tutti gli indicatori hanno una distribuzione abbastanza simmetrica, tranne la densità abitativa. Per questo prima di effettuare la regressione le è stata applicata una trasformazione logaritmica.

Dalla matrice di correlazione degli indicatori si nota che questi sono fortemente correlati tra di loro. Questo può essere un grosso problema per l’individuazione delle variabili esplicative che maggiormente spiegano i risultati elettorali perché ci potrebbero essere problemi di multicollinearità tra le variabili.

Siccome TSO e TSOFM hanno una correlazione molto forte ho deciso di rimuovere TSOFM.

Di seguito sono riportate le mappe con la distribuzione di alcuni degli indicatori che sono risultati particolarmente rilevanti nella regressione lineare.

Regressione su base nazionale

Siccome i collegi di Bolzano, Merano e Bressanone sono punti influenti (hanno valori delle variabili esplicative particolarmente diversi rispetto a quelli degli altri collegi) e anomali (hanno dei risultati elettorali particolarmente diversi rispetto a quelli degli altri collegi), si è deciso di rimuoverli prima di effettuare la regressione.

Di seguito sono riportati i modelli che meglio spiegano i voti della Lega, del Movimento 5 Stelle e del Partito Democratico.

## 
## Call:
## lm(formula = LEGA ~ ST + AAST + PDU + OSS + IVMS, data = df_lega)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.8621  -2.6198   0.0989   2.3613  12.2099 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 89.713110   4.647857  19.302  < 2e-16 ***
## ST           0.068495   0.009583   7.147 1.26e-11 ***
## AAST        -1.954181   0.167391 -11.674  < 2e-16 ***
## PDU         -0.594294   0.074658  -7.960 8.79e-14 ***
## OSS         -0.363361   0.074750  -4.861 2.21e-06 ***
## IVMS        -0.512219   0.048533 -10.554  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.933 on 222 degrees of freedom
## Multiple R-squared:  0.8545, Adjusted R-squared:  0.8512 
## F-statistic: 260.7 on 5 and 222 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = M5S ~ ST + TSO + AAST + EDI + IVMS, data = df_m5s)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.528  -2.546  -0.121   2.427  12.571 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 14.03898   13.51511   1.039 0.300046    
## ST          -0.08456    0.01474  -5.739 3.11e-08 ***
## TSO         -0.35073    0.10000  -3.507 0.000548 ***
## AAST         0.62338    0.17191   3.626 0.000357 ***
## EDI         -0.08767    0.02250  -3.896 0.000129 ***
## IVMS         0.44600    0.08735   5.106 7.07e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.327 on 222 degrees of freedom
## Multiple R-squared:  0.857,  Adjusted R-squared:  0.8538 
## F-statistic: 266.1 on 5 and 222 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = PD ~ TSO + AAST + PDU + EDI + IVMS, data = df_pd)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.5090 -1.9783 -0.2438  1.9837 12.0898 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -72.46606    8.68863  -8.340 7.83e-15 ***
## TSO           0.76151    0.05467  13.930  < 2e-16 ***
## AAST          0.62410    0.13387   4.662 5.40e-06 ***
## PDU           0.30423    0.04726   6.437 7.42e-10 ***
## EDI           0.04898    0.01758   2.786   0.0058 ** 
## IVMS          0.38712    0.05883   6.580 3.33e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.298 on 222 degrees of freedom
## Multiple R-squared:  0.6998, Adjusted R-squared:  0.693 
## F-statistic: 103.5 on 5 and 222 DF,  p-value: < 2.2e-16

Dai modelli di regressione lineare risulta che:

  • La Lega ottiene voti dove:
    • ci sono tanti stranieri;
    • ci sono pochi analfabeti;
    • ci sono pochi laureati;
    • ci sono pochi occupati nel settore dei servizi;
    • la vulnerabilità materiale e sociale è bassa.
  • Il Movimento 5 Stelle ottiene voti dove:
    • ci sono pochi stranieri;
    • l’occupazione è bassa;
    • ci sono tanti analfabeti;
    • ci sono poche residenze antiche;
    • la vulnerabilità materiale e sociale è alta.
  • Il Partito Democratico ottiene voti dove:
    • l’occupazione è alta;
    • ci sono tanti analfabeti;
    • ci sono tanti laureati;
    • ci sono tante residenze antiche;
    • la vulnerabilità materiale e sociale è alta.

Per quanto riguarda gli stranieri, gli analfabeti, l’occupazione e la vulnerabilità, si tratta di aspetti che caratterizzano il divario che c’è tra le regioni del Nord e quelle del Sud. Altre variabili come la presenza di laureati, l’occupazione nei servizi e la presenza di residenze antiche caratterizzano le differenze che vi sono tra le aree urbane e le province.

Il problema delle variabili legate alle forti differenze geografiche tra Nord e Sud è che non permettono di capire se le differenze tra l’elettorato del Movimento 5 Stelle e quello della Lega siano veramente dovute a queste variabili di carattere socio-economico o se queste variabili siano solamente dei proxy che portano a correlazioni spurie.

Regressione utilizzando solo le circoscrizioni del Nord

Per neutralizzare l’effetto dell’appartenenza geografica e isolare le caratteristiche degli elettori, è stata condotta una seconda analisi di regressione lineare prendendo in considerazione solo le regioni del Nord, dove la Lega è particolarmente forte, ma vi è anche un’importante presenza del Movimento 5 Stelle e del Partito Democratico. Le regioni scelte sono state Piemonte, Lombardia, Veneto e Friuli - Venezia Giulia.

## 
## Call:
## lm(formula = LEGA ~ IV + ADDSP + OSS + POP_NFR, data = df_nord_lega)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.8369 -1.2763 -0.0557  1.7452  8.7396 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 52.33445    2.00674  26.079  < 2e-16 ***
## IV          -0.05086    0.01154  -4.408 3.52e-05 ***
## ADDSP       -0.03055    0.01368  -2.233   0.0286 *  
## OSS         -0.31195    0.07518  -4.149 8.91e-05 ***
## POP_NFR     -0.32621    0.05053  -6.456 1.04e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.927 on 73 degrees of freedom
## Multiple R-squared:  0.8197, Adjusted R-squared:  0.8098 
## F-statistic: 82.96 on 4 and 73 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = M5S ~ ST + AAST + PDU + OSS, data = df_nord_m5s)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3302 -1.5587  0.1737  1.7049  6.9819 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 18.72684    1.93445   9.681 9.97e-15 ***
## ST          -0.03816    0.01183  -3.227  0.00187 ** 
## AAST         2.21860    0.42439   5.228 1.57e-06 ***
## PDU         -0.37546    0.10508  -3.573  0.00063 ***
## OSS          0.27588    0.08442   3.268  0.00165 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.852 on 73 degrees of freedom
## Multiple R-squared:  0.5371, Adjusted R-squared:  0.5117 
## F-statistic: 21.17 on 4 and 73 DF,  p-value: 1.273e-11
## 
## Call:
## lm(formula = PD ~ LDAB + IV + ICMI + PDU, data = df_nord_pd)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.076 -1.226 -0.269  1.357  4.758 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.452382   2.445177  -1.412  0.16222    
## LDAB         0.952049   0.219874   4.330 4.67e-05 ***
## IV           0.019349   0.006819   2.838  0.00588 ** 
## ICMI         0.346933   0.082357   4.213 7.12e-05 ***
## PDU          0.395457   0.072668   5.442 6.72e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.862 on 73 degrees of freedom
## Multiple R-squared:  0.7624, Adjusted R-squared:  0.7493 
## F-statistic: 58.55 on 4 and 73 DF,  p-value: < 2.2e-16

Dai modelli di regressione lineare sulle sole regioni del Nord risulta che:

  • La Lega ottiene voti dove:
    • ci sono pochi anziani;
    • ci sono pochi addetti nei settori pubblici;
    • ci sono pochi occupati nei servizi;
    • ci sono pochi nati fuori regione.
  • Il Movimento 5 Stelle ottiene voti dove:
    • ci sono pochi stranieri;
    • ci sono tanti analfabeti;
    • ci sono pochi laureati;
    • ci sono tanti occupati nei servizi.
  • Il Partito Democratico ottiene voti dove:
    • c’è un’alta densità abitativa;
    • ci sono tanti anziani;
    • la vulnerabilità materiale e sociale è alta;
    • ci sono tanti laureati.

Per quanto riguarda la densità abitativa, la presenza di anziani, la presenza di laureati e l’occupazione nei servizi, si tratta di aspetti che caratterizzano le differenze che vi sono tra le aree urbane e le province.

La presenza di italiani nati fuori regione invece caratterizza il Piemonte che ha conosciuto una forte immigrazione interna dal dopoguerra in poi. La presenza di tanti meridionali potrebbe essere uno dei motivi per cui la Lega Nord di Umberto Bossi non sia riuscita a costruirsi una forte base elettorale come in Lombardia e Veneto, fatto che si riversa sugli attuali risultati elettorali della Lega di Matteo Salvini.

Il risultato del Movimento 5 Stelle è più difficilmente interpretabile perché essendo un partito più giovane e senza una forte identità caratteristica tende a raccogliere trasversalmente i voti degli elettori insoddisfatti dei partiti tradizionali. Di conseguenza potrebbe essere semplicemente che il motivo dei suoi successi alle elezioni politiche sia da spiegare come un insuccesso degli altri partiti. Cioè nelle zone in cui la Lega non ha una forte presenza e negli ultimi anni si è diffuso un generale malcontento nei confronti del Partito Democratico, il Movimento 5 Stelle riesce a emergere ottenendo i voti degli insoddisfatti che cercano un cambiamento.

Conclusioni

L’analisi dei risultati elettorali su base geografica non permette di capire con certezza quali siano le caratteristiche socio-economiche dell’elettorato dei diversi partiti, perché, come già osservato, si basa sull’analisi di dati aggregati. Può però fornire interessanti punti di partenza per ulteriori indagini politiche.

Inoltre la statistica da sola fornisce solo correlazioni, non nessi di causa-effetto. Di conseguenza può essere utilizzata come analisi esplorativa o come verifica di ipotesi fatte a monte, ma senza una spiegazione di tipo sociologico non ha molto peso dal punto di vista scientifico.

Questo problema si riscontra soprattutto nel tentativo di rispondere al quesito 5 (Le zone geografiche sono solo un proxy per le caratteristiche socio-economiche degli elettori o da sole spiegano il voto degli elettori?). Va però notato che dalla regressione lineare alcuni degli indicatori che distinguono le regioni del Nord dalle regioni del Sud risultati significativi nell’analisi su base nazionale, risultano non significativi limitando l’analisi alle regioni del Nord. Si potrebbe quindi pensare che non è la collocazione geografica un proxy per quelle caratteristiche della popolazione, ma sono quelle caratteristiche della popolazione a fare da proxy per la collocazione geografica.